Pandas 是一個Python程式語言中的資料處理工具,它的主要用途是幫助人們處理和分析數據。Pandas提供了一種方便的方式,讓你可以載入、整理、分析、和可視化數據。尤其是表格型的資料特別適合 Pandas。
打開 cmd 或是 terminal 使用 pip 指令下載 pandas 模組:
pip install pandas
import pandas as pd
import matplotlib.pyplot as plt
使用 pandas 的 read_csv
方法來讀取 csv 檔案,實作這筆資料時匯入時有出錯,錯誤訊息為pandas.parser.CParserError: Error tokenizing data. C error
,可能是有某幾行損毀,傳入引數時加上 on_bad_lines='skip'
來解決此問題:
fasion_df = pd.read_csv("./fashion_product_images_small/myntradataset/styles.csv", on_bad_lines='skip')
# 輸出頭十筆資料
fasion_df.head(10)
顯示出dataframe
的 columns
來看有哪些可以用的資料
print(fasion_df.columns)
此時可以看到 masterCategory、subCategory、articleType 可能是要預測的結果,因此針對這三個性質仔細分析:
plt.figure(figsize=(7,20))
fasion_df.masterCategory.value_counts().sort_values().plot(kind='barh')
plt.figure(figsize=(7,20))
fasion_df.subCategory.value_counts().sort_values().plot(kind='barh')
plt.figure(figsize=(7,20))
fasion_df.articleType.value_counts().sort_values().plot(kind='barh')
看起來 masterCategory 類別數比較少,本系列會先從這個類別切入,如果有時間會試試看是否可以預測出其他兩個分類。